53 research outputs found
Generator of Binaural Sounds Through LABVIEW and PURE DATA
Este articulo presenta el diseño e implementación de un generador de sonidos binaurales por medio de la plataforma grafica LABVIEW y el procesador de audio PURE DATA de modo que por medio de una interfaz, se pueda manipular estos determinados sonidos, es decir, se pueda variar sus características según lo desee el usuario, generando los diferentes tipos de ondas cerebrales gracias a la diferencia de frecuencias que se produce entre el audio izquierdo y el derecho. El generador no solo produce tonos binaurales puros o también denominados pulsos binaurales, sino que también se aplica en la realidad virtual, es decir, se desarrolló en la interfaz una opción que le permite al usuario interactuar con dichos sonidos por medio del movimiento de su cabeza, creando una sensación de realidad por medio de audio.This paper presents the design and implementation of a binaural sound generator by means of the LABVIEW graphic platform and the PURE DATA audio processor so that through an interface, these certain sounds can be manipulated, that is, their features as desired by the user, generating different types of brain waves thanks to the difference in frequencies that occurs between the left and right audio. The generator not only produces pure binaural tones or also called binaural pulses, but it is also applied in virtual reality, that is, an interface that allows the user to interact with said sounds through the movement of his head was developed in the interface. , creating a sense of reality through audio
Técnicas de sonido binaural en la postproducción audiovisual
La escucha binaural es un recurso que puede ser empleado en aplicaciones audiovisuales para obtener una experiencia inversiva que mejora el estéreo clásico y es comparable al sonido estéreo envolvente multicanal. Para ello es necesario un procesado específico a través de filtrado de tipo HRTF (función de transferencia derivada de la cabeza). Este proceso consiste en aplicar a cualquier sonido monofónico o estereofónico las características que el sistema auditivo necesita para interpretar la localización espacial tridimensional del sonido (indicios binaurales). Estos indicios dependen principalmente de características antropomórficas individuales, lo que introduce ciertos problemas debidos al uso de HRTF no individualizadas, como dificultad para localizar sonidos fuera de nuestra cabeza (internalizaciones) o confusiones entre delante y detrás (inversiones). Una buena comprensión de las características de la audición humana es necesaria para optimizar este procesado. En este trabajo se realiza un estado de la cuestión y un repaso de estudios realizados sobre la materia. Se constata que experimentos previos (Kistler, 1999; Mackensen, 2004; Werséni, 2009) apuntan a una mejora de la localización espacial con el uso de sonidos del mundo real, o a través de la simulación de movimientos relativos fuente sonora-oyente (indicios dinámicos). Se propone un diseño experimental consistente en un test de percepción con el fin de comparar el comportamiento de distintas señales de audio con distintas características temporales y espectrales, la influencia del movimiento y la fiabilidad de distintas herramientas de postproducción y grabación de campo binaurales. Se han probado sobre 11 sujetos, 3 tipos de sonido (espectralmente difuso, impulsivo y voz) y 4 técnicas de recreación binaural: procesado mediante software de postproducción de audio (panorama 5, binaural panner), filtrado con matlab y grabación de campo con microfonía binaural (Soundman OKM) sobre muestras estáticas y con movimiento simulado. Los resultados son muy similares para todas las técnicas de recreación, e indican que los sonidos impulsivos son detectados con más precisión y menos errores. El movimiento parece mejorar los problemas de internalización (hasta un 40%), y las confusiones detrás-delante, pero aumenta las confusiones delante-detrás y la precisión en la localización en general. Se constata que un mejor conocimiento de las características de la escucha espacial humana es de interés en la mejora de las estrategias de diseño de sonido y aplicable a la realización de productos audiovisuales novedosos de alta calidad.
Binaural hearing can be used in audiovisual applications allowing an immersive experience that goes beyond the classical stereo and comparable to surround multichannel stereo sound. It requires a specific processing through HRTF (head-related transfer function). This processing consists on applying the characteristics that hearing system needs to interpret the spatial location of the sound (binaural cues) to any monophonic or stereophonic sound. These cues depend on individual anthropomorphic characteristics, what led to problems due to non-individualized HRTF processing, as inside-the-head locations or front-back confusions. A good understanding of the characteristics of human hearing is needed to improve the processing. In this work, a state-of-the-matter and a background review is done. Previous research (Kistler, 1999; Mackensen, 2004; Wersény, 2009) point to an improvement of spatial location using real-world sounds or relative listener-source movement simulation (dynamic cues). An experimental design is proposed consisting on a perceptual test to compare the behavior of different time and space shaped audio signals, the influence of movement and the reliability of different binaural audio postproduction and field recording tools. Eleven subjects have been tested with 3 different sorts of sounds (diffuse spectrum, impulsive and speech) and 4 different binaural simulation technics: audio postproduction software (panorama 5, binaural panner), matlab filtering and binaural field recording (Soundman OKM) through static and moving samples. The results are very similar regarding the simulation technics, and show that impulsive sound is more easily and precisely detected with less confusions. Movement seems to improve the inside-the-head location (up to 40%) and the back to front confusions, but increase the front-to-back and the localization blur in overall. It is verified that a better understanding of the human spatial hearing characteristics is a field of interest on improving the sound design strategies and applicable to produce high quality original audiovisual products.Rodríguez Mariño, R. (2011). Técnicas de sonido binaural en la postproducción audiovisual. Universitat Politècnica de València. http://hdl.handle.net/10251/14732Archivo delegad
Desarrollo de herramientas de procesado y visualización para audio 3D con auriculares
La Auralización o “realidad virtual acústica” es un término relativamente nuevo. Integra métodos de la física y la ingeniería acústica con la teoría de la Psicoacústica y de reproducción electroacústica [1]. El término Auralización es el análogo de la técnica de “visualización” en video 3D para el audio. En este Proyecto Fin de Carrera se describe el proceso de visualizar ciertas características, efectos o señales del sonido. Los sistemas estéreo convencionales son capaces de posicionar la imagen sonora o evento auditivo solamente en el arco virtual que une los dos altavoces. Una extensión directa de estos sistemas fueron los sistemas de sonido envolvente o sonido Surround, en donde se usan más de dos altavoces para crear una imagen sonora que se puede mover por todo el círculo que contiene a los altavoces.
Por otro lado, los nuevos sistemas de audio 3D pueden posicionar la imagen sonora, usando solo altavoces (o unos auriculares), en cualquier punto de un espacio tridimensional alrededor del oyente. La Auralización describe el proceso de generación, procesado y playback de audio Surround a la altura de los oídos del oyente. Aplicaciones comunes son la resolución de un problema de Acustica, la mejora de una sala, la simulación de la respuesta en frecuencia de los altavoces para escucha con auriculares, la construcción de un edificio, un coche u otros productos. Ya que el fin último de los sistemas de audio 3D es convencer a los usuarios u oyentes de que el sonido es emitido desde una posición en la sala donde no existe físicamente una fuente o altavoz, no solo los parámetros físicos sino también los psicoacústicos juegan un papel fundamental en el diseño del sistema.
El concepto de conseguir sonido tridimensional fue investigado por primera vez en relación con la modelización de campos sonoros en salas en 1929. Spandöck procesó señales derivadas de medidas en un modelo a escala de la sala con el fin de poder escuchar la acústica de la sala en el mismo laboratorio. La idea fue bien recibida, pero en esa época no había medios para ponerla en práctica. Veinte años después, en 1949, se inventaba la cinta magnética. Spandöck presenta finalmente su sistema basado en señales ultrasónicas, modelos de salas a escala y un grabador de cinta trabajando a diferentes velocidades. Los elementos básicos de la auralización se pusieron de manifiesto con este trabajo: modelado de campos sonoros, procesado y reproducción del sonido.
Con el tremendo desarrollo de los computadores, el concepto de simulación y auralización fue reinventado por Schroeder a principios de 1960. No es hasta después, en la década de 1990 para cuando la era del procesado digital (DSP), las velocidades de procesador y espacio de memoria se hacen suficientemente potentes como para procesar simulaciones en ordenadores personales, el momento donde se introduce oficialmente el término Auralización. Otros campos de la acústica también han incluido este término en su argot para referirse a fenómenos relacionados con la espacialización del audio, particularmente en los ámbitos de ingeniería de sonido y acústica arquitectónica. Desde entonces, el software y hardware se ha perfeccionado considerablemente y hoy en día el software comercial para la simulación de salas acústicas se considera incompleto sin una opción de auralización mediante la tarjeta de sonido del PC o una interfaz de audio DA/AD. Buena parte del desarrollo de sistemas de audio 3D se ha basado en un único oyente posicionado en
entornos anecoicos, lo que simplifica el análisis considerablemente. Sin embargo, esto acarrea
normalmente que el sistema solo funcione debidamente en estos entornos aislados acusticamente. Para
evitar este condicionamiento, se piensa en que los espacios de escucha sean salas reverberantes y por ello
se caractericen con una respuesta al impulso de la sala (RIR) o su análogo en frecuencia la respuesta en
frecuencia de la sala (RTF) de larga duración, debido a la reverberación. A una frecuencia de muestreo de
44.1 kHz (estándar de facto y también usada a lo largo de todo este proyecto) se necesitan miles de
coeficientes para los filtros FIR que modelen fehacientemente una RIR. Es por ello que los sistemas de
audio 3D requieren de una gran capacidad de cómputo por parte del host. Se hace indispensable aplicar la
teoría de Fourier, en concreto algoritmos FFT, para trasladar el problema al dominio frecuencial con el fin
de reducir la complejidad computacional.
Aunque estas respuestas al impulso de larga duración puedan dificultar la implementación en tiempo
real, permiten estudiar los efectos de un entorno/sala en el rendimiento del sistema.
Los sistemas de audio 3D filtran señales de audio monofónicas mediante una matriz de filtros digitales
que depende de la posición de la fuente sonora relativa al oyente; esto es, dependiente de las coordenadas
polares (θ, φ, r). En general, las soluciones de estos filtros se componen de dos partes.
La primera es la matriz de respuestas en frecuencia relacionadas con la cabeza (HRTFs) , que contiene la
información direccional que el oyente debe percibir. Los coeficientes de esta matriz se obtienen
normalmente de funciones de transferencia generalizadas y medidas previamente, p.ej. mediante una
base de datos. La segunda es la red de cancelación de Crosstalk (cancelación de XT), que invierte la matriz
de funciones de transferencia acústicas (entre altavoces y oídos del oyente) de la manera más realista y
eficiente posible.
Ya que las HRTFs varían considerablemente de un humano a otro debido a la compleja estructura de estas
funciones, que dependen de la complexión física y psíquica así como de la estructura geométrica única de
cada oído humano, calcular los filtros mediante HRTFs generalizadas degrada la imagen sonora percibida.
En este Proyecto Fin de Carrera se desea describir en profundidad el estado del arte de estos sistemas así
como crear un sistema de audio 3D de estas características usando el software Matlab® R2014b. Para
ello, se calculan RIRs mediante una función específica para ello y las HRIRs se obtienen de bases de datos;
estas ultimas se implementaron de cuatro formas. La primera es mediante un sencillo modelo matemático
que modele una HRTF. Las dos siguientes son dos bases de datos de HRTFs, una elaborada en el MIT
Media Lab [1] en Estados Unidos de América y otra por la universidad de Peking PKU en China, la última
con la ventaja que depende también de la distancia fuente-receptor y que incluyen HRTFs para cada oído
izquierdo (L) y derecho (R). El número de muestras y la frecuencia de muestreo para cada HRTF son fijas
y valen 512 muestras y 44.1 kHz, respectivamente. Cada una de estas funciones corresponde con una
respuesta al impulso finita (filtro FIR) con 512 coeficientes o taps. La última de las cuatros formas en la
que se implementaron HRTFs en este Proyecto Fin de Carrera fue interpolando en las tres coordenadas
(θ, φ, r) las HRTFs de la base de datos de la PKU.
Si el sistema de auralización convoluciona un sonido con una BRIR que corresponda, por ejemplo, a un
entorno reverberante con un tiempo de reverberación de aprox. 2 segundos, cada BRIR tendrá
aproximadamente 23000 coeficientes a 44.1 kHz. Por tanto, se precisan métodos de convolución
eficientes, procesadores potentes así como sistemas de interpolación y extracción de características
binaurales para reducir el volumen de información en la medida de lo posible.
Un sistema de auralización en tiempo real de alta calidad se presenta como un verdadero reto para la
tecnología actual disponible. La solución es encontrar nuevas teorías y aproximaciones de simulación
acústica de entornos y auralización con un balance entre precisión y tiempo de computo requerido para
obtener el efecto 3D deseado.
En este software de audio 3D desarrollado, la Auralización del audio original se consigue troceando por
bloques la señal y dejando que el oyente defina una trayectoria en el espacio que la fuente trazará. Cada
bloque de audio (que corresponde a un punto en la trayectoria) se convoluciona con una respuesta el
impulso binaural de la sala (BRIR), obtenida de la convolución de la HRIR con la RIR.
Los bloques procesados se solapan y suman usando el algoritmo de Solapamiento y Suma (Overlap and
Add Algorithm OLA). Así se consiguen dos señales, una para cada oído. Estas señales tendrán que ser
reproducidas con auriculares para la mejor experiencia.The Auralization of sound or Acoustic Virtual Reality or 3D Audio are new methods that use
Physics and Sound Engineering together with the Psychoacoustic theory. Auralization of sound
is the analogous of Visualization in the area of 3D Video. In this M Sc Thesis, the process of
visualization of certain characteristics, effects and audio signals are investigated and
developed.
Conventional stereophonic systems are capable of positioning the sound image (or auditory
event) only between the arc spanned by the two loudspeakers. The Surround systems were an
extension of the stereophonic systems, where two or more loudspeakers were used to create
an auditory image that can move through the whole circle spanned by the various
loudspeakers. However, the newer 3D audio systems are capable of positioning the sound
image at any point in a three-dimensional space using only two loudspeakers (or headphones).
The process of auralization is, indeed, the generation, processing and playback pf surround
sound at the listeners’ ears. Common applications of auralization are the simulation of a
loudspeakers frequency response over headphones, the acoustic treatment of a room or
building and also the acoustic simulation in a car or other systems.
The goal of a 3D audio system is to trick the perception of the listener in order to make the
sound emanate from a position in the room where a loudspeaker isn’t really there. Therefore,
not only the physical but also the psychoacoustic parameters play a role in the system design.
Three-dimensional sound was first investigated in 1929 related with the modeling of sound
fields in rooms. Spandöck built small rooms such that the tests were carried out on a natural
scale model. Doing so, the sound signals could be heard in the lab relatively easy. The idea was
subtle, but in 1929 there wasn’t really a technology to put this in practice.
Twenty years later the magnetic tape was invented. Spandöck finally brought forward his
system based on ultrasonic signals and scaled room models. The fundamental elements of
auralization were defined with his work: modeling sound fields, processing and reproduction
of sound.
With the formidable development of computers, the concept of simulation and auralization
was re-written by Schroeder in the 1960s. Nevertheless, it is not until the 1990s when the
DSPs, computer run-times and memories were big enough to run simulations in personal
computers. It is then when the term Auralization is officially introduced. Other fields in
Acoustics like in Audio Engineering have also introduced the term auralization to refer to the
spatialization of sound. Since the 1990s, software and hardware have been improved
considerably and nowadays commercial software for the simulation of sound in rooms is
considered incomplete without an option of auralization via a sound interface or an AD/DA
card.
Much of the development of 3D audio systems has been based on a single user/microphone
positioned in anechoic environments. This makes the analysis much easier but makes the
system only usable in these acoustic isolated environments. To prevent this, one thinks in
environment as a reverberant room modeled via a room impulse response (RIR) or the
equivalent room transfer function (RTF).
The RIR has a considerable duration because of the reverberation. Establishing the sample rate
to 44.1 kHz (standard de facto and also the standard for this Thesis) one requires thousands of
taps for the FIR filters that correctly model the RIR. This is the reason that 3D audio systems
need great amounts of computing capacity by the host. Because of it the Fourier theory is
indispensable: FFT algorithms for looking at the problem in the frequency domain and so
reduce the complexity.
Although these RIRs may cause difficulty in the implementation in real time, they enable to
study the effects of a room in the global system.
3D audio systems filter audio signals using a matrix of filters that account for the position of
the sound source relative to the receiver. That is, dependent on the polar coordinates (r, θ, ϕ).
Generally speaking, the solutions to these filters are made up of two pieces.
The first one is the Head-Related Transfer Functions (HRTF) matrix, which holds the directional
information for the receiver. The matrix coefficients are derived from transfer functions which
were previously measured or from a data base.
The second one is the Crosstalk Cancelling Network. It reverts the acoustic transfer functions
matrix (between loudspeakers and the ears of the listener) in the most realistic and efficient
way.
Because HRTFs vary a lot between humans, using generalized HRTFs degrades the perceived
sound stage.
The goal of this Thesis is to widely describe these 3D audio systems and also to develop a
system using Matlab® R2014b. To this end, RIRs are computed using a function and HRIRs are
extracted from data bases in four ways. The first way is to use a simple mathematical model.
The second and third way are two HRTFs data bases, one developed at the MIT Media Lab in
the USA [1] and the other at the Peking PKU in China. They include HRTFs for each ear left (L)
and right (R). The third way has the advantage that it also depends on the source-receiver
distance. The number of samples as well as the sample rate are fixed and of value 512 samples
and 44.1 kHz, respectively. Each HRTF corresponds to a finite impulse response (FIR filter) with
512 samples or taps.
The fourth way that HRTFs were obtained was by interpolating the HRTFs of the PKU database
in the polar coordinates (r, θ, ϕ).
Efficient convolution methods are required, powerful processors as well as interpolation
systems to minimize the amount of data. The reason is that if an auralization system convolves
an input sound with a BRIR that corresponds to a reverberation room with a reverberation
time of let’s say, 2 seconds, each BRIR will have approx. 23000 taps at 44.1 kHz.
An auralization system that operates in real time is a real challenge with the actual technology
Sistemas de realidad virtual para el estudio del campo acústico de edificios del patrimonio artístico-cultural
En este trabajo se ha estudiado la combinación de simulación gráfica y acústica para la creación de herramientas de soporte para la obtención de los requerimientos subjetivos acústicos propios de nuestro entorno cultural y los parámetros objetivos mínimos para su valoración.Montell Serrano, RE. (2010). Sistemas de realidad virtual para el estudio del campo acústico de edificios del patrimonio artístico-cultural. http://hdl.handle.net/10251/13963Archivo delegad
Técnicas paramétricas de upmixing en ambisonics: evaluación perceptual
Ambisonics es un método para la reproducción inmersiva de audio espacial con ventajas técnicas
relacionadas con la interactividad y la realidad virtual. Del mismo modo, también se conocen
deficiencias en la resolución espacial cuando se utilizan grabaciones de primer orden. Utilizar
órdenes superiores corrige estas deficiencias a costa de una mayor complejidad técnica y
esfuerzo económico en los micrófonos que se utilizan.
Cuando sólo se dispone de material en primer orden, pueden utilizarse estrategias de upmixing
para aumentar la resolución espacial y el sweet spot o punto óptimo. Existen diferentes
estrategias, y son estas las que se van a evaluar en este proyecto utilizando una esfera completa
de 24 altavoces. Dado que las señales de los altavoces pueden convertirse en señales binaurales
por medio de altavoces virtuales, las tres estrategias (DirAC, HARPEX y COMPASS) se comparan
también reproduciendo las escenas a través de auriculares.
El objetivo de este proyecto es presentar y analizar mediante una prueba de audio llevada a
cabo en la UPNA los diferentes algoritmos de upmixing utilizados para convertir señales de
Ambisonics de primer orden a señales Ambisonics de tercer orden por medio de rutinas de
software.Graduado o Graduada en Ingeniería en Tecnologías de Telecomunicación por la Universidad Pública de NavarraTelekomunikazio Teknologien Ingeniaritzako Graduatua Nafarroako Unibertsitate Publikoa
Sistema de simulación acústica virtual en tiempo real
Tesis Doctoral (DCI)--FCEFN-UNC, 2012Esta tesis se pudo realizar gracias al programa de becas doctorales internas del Consejo Nacional de Investigaciones Científicas y Tecnológicas (CONICET).Desarrolla un sistema experimental dinámico e interactivo de realidad acústica virtual, basado en arquitectura de computadoras de propósito general y que fuera flexible, escalable, fácil de mantener y modular. Para alcanzar este objetivo se modelaron tres subsistemas: la fuente sonora, el recinto y el medio de propagación, y el oyent
Metodología de grabación Ambisonic en conjuntos musicales acústicos
[ES] Uno de los métodos de grabación de sonido 3D con más crecimiento en los últimos años es el sistema Ambisonics. Para la grabación del sonido se utiliza un micrófono especial con 4 cápsulas en forma de tetraedro. Así como las técnicas de grabación estéreo en directo han sido muy estudiadas durante años, las técnicas de grabación Ambisonics son un campo en evolución. En este proyecto se trabajará en la grabación en directo de grupos musicales acústicos de diferentes tipos: grupos de jazz, bandas de rock acústicos, bandas sinfónicas, etc, adquiriendo experiencia con la práctica. Se ensayarán diferentes posiciones y distancias de grabación y se realizarán estudios subjetivos para ver las preferencias del público en cada caso. Así mismo, las grabaciones se pondrán a disposición para la I+D en otros proyectos más avanzados del grupo de investigación.[EN] One of the methods of recording 3D sound with more growth in recent years is the Ambisonics system. A special microphone with 4 capsules in the form of a tetrahedron is employed to record the sound. Just as live stereo recording techniques have been studied for years, Ambisonics recording techniques are an evolving field. In this project we will work on live recording of acoustic musical groups of different types: jazz groups, acoustic rock bands, symphonic bands, etc., acquiring experience with the practice. Different positions and recording distances will be tested and subjective studies will be carried out to see the preferences of the audience in each case. Likewise, the recordings will be made available for R & D in other more advanced projects of the research group.Rubio Arenas, J. (2020). Metodología de grabación Ambisonic en conjuntos musicales acústicos. Universitat Politècnica de València. http://hdl.handle.net/10251/156886TFG
Sistema de ayuda a invidentes basado en cámaras de profundidad
El presente proyecto final de grado tiene como objetivo el desarrollo de un sistema de ayuda para
personas con discapacidad visual empleando técnicas de visión artificial. El algoritmo desarrollado
tiene un funcionamiento en tiempo real y permite al usuario el aprendizaje de objetos y la detección
de los mismos mediante un dispositivo RGB-D. Una vez detectados, su localización en el espacio será
transmitida a la persona invidente por medio de una técnica de localización sonora llamada técnica
binaural.
El algoritmo ha sido desarrollado sobre el framework de ROS, a través del cual podemos obtener
la información que nos proporciona el dispositivo RGB-D utilizado y realizar los diferentes aspectos
de procesado de imagen que se han empleado, tales como: filtrado de los bordes de la imagen RGB-D,
detección, reconocimiento y entrenamiento de objectos, suavizado temporal mediante el Filtro de Kalman
y la obtención de las coordenadas cartesianas de los diferentes objetos.
Para la realización de este trabajo se ha profundizado en el análisis de los diferentes sistemas y
métodos para la detección y reconocimiento de objetos que existen en la actualidad, la mejora de estos
mediante técnicas de visión artificial y, por último, el estudio y aplicación de las diferentes técnicas de
localización mediante sonidos binaurales. Esto representa una oportunidad para la aplicación de dichos
sistemas a la ayuda a personas invidentes.The main objective of this BsC Thesis is to develop a system for helping visually impaired people using
methods from computer vision. The proposed system works in real time and allows the user to detect
previously learned objects with a RGB-D camera. Once an object is detected in the image, the system
computes its 3D position from the user’s reference frame and sends this information to the user by
means of an acoustic signal that is generated using a binaural localization model.
The software has been developed using the ROS framework that provides access to the RGB-D
device and the different image processing tasks: image edge filtering, object detection, recognition and
learning, temporal smoothing with the Kalman Filter and the 3D localization of objects.
To develop this work, existing methods for object detection and recognition from RGB cameras
have been studied and their improvement using depth cameras. User interfaces based on acoustic
signals have also been studied and tested in a group of real users. This BsC Thesis thus represents an
opportunity to improve quality of life of visually impaired people by using state-of-the-art computer
vision technologies.Grado en Ingeniería en Electrónica y Automática Industria
Desarrollo de un sistema de multiconferencia inmersiva con audio 3D para móviles
En este trabajo se desarrolla un sistema de multiconferencia con audio espacial para terminales móviles. Este sistema mejora la inteligibilidad de la conversación usando técnicas de procesado de sonido binaural HRTF y utiliza una interfaz gráfica y táctil para situar a los participantes en un espacio virtual por medio de la pantalla del terminal.Aguilera Martí, E. (2011). Desarrollo de un sistema de multiconferencia inmersiva con audio 3D para móviles. http://hdl.handle.net/10251/15357Archivo delegad
Sistema de ayuda a invidentes basado en cámaras de profundidad
El presente proyecto final de grado tiene como objetivo el desarrollo de un sistema de ayuda para
personas con discapacidad visual empleando técnicas de visión artificial. El algoritmo desarrollado
tiene un funcionamiento en tiempo real y permite al usuario el aprendizaje de objetos y la detección
de los mismos mediante un dispositivo RGB-D. Una vez detectados, su localización en el espacio será
transmitida a la persona invidente por medio de una técnica de localización sonora llamada técnica
binaural.
El algoritmo ha sido desarrollado sobre el framework de ROS, a través del cual podemos obtener
la información que nos proporciona el dispositivo RGB-D utilizado y realizar los diferentes aspectos
de procesado de imagen que se han empleado, tales como: filtrado de los bordes de la imagen RGB-D,
detección, reconocimiento y entrenamiento de objectos, suavizado temporal mediante el Filtro de Kalman
y la obtención de las coordenadas cartesianas de los diferentes objetos.
Para la realización de este trabajo se ha profundizado en el análisis de los diferentes sistemas y
métodos para la detección y reconocimiento de objetos que existen en la actualidad, la mejora de estos
mediante técnicas de visión artificial y, por último, el estudio y aplicación de las diferentes técnicas de
localización mediante sonidos binaurales. Esto representa una oportunidad para la aplicación de dichos
sistemas a la ayuda a personas invidentes.The main objective of this BsC Thesis is to develop a system for helping visually impaired people using
methods from computer vision. The proposed system works in real time and allows the user to detect
previously learned objects with a RGB-D camera. Once an object is detected in the image, the system
computes its 3D position from the user’s reference frame and sends this information to the user by
means of an acoustic signal that is generated using a binaural localization model.
The software has been developed using the ROS framework that provides access to the RGB-D
device and the different image processing tasks: image edge filtering, object detection, recognition and
learning, temporal smoothing with the Kalman Filter and the 3D localization of objects.
To develop this work, existing methods for object detection and recognition from RGB cameras
have been studied and their improvement using depth cameras. User interfaces based on acoustic
signals have also been studied and tested in a group of real users. This BsC Thesis thus represents an
opportunity to improve quality of life of visually impaired people by using state-of-the-art computer
vision technologies.Grado en Ingeniería en Electrónica y Automática Industria
- …